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摘 要 : 针对 安防 监控 场景 中 获取 的 人 脸 图 像 质 量 不 佳 、 细 节 信 息 丢 失 导 致 的 人 脸 识别 准确 率 低 下 的 问题 ， 提 出 一 
种 基于 超 分 辩 率 重建 的 低 分 辩 尝 人 脸 识 别 算法 。 该 算法 包括 超 分 辩 率 重建 和 人 脸 识 别 两 个 子 网 络 ， 分 别 实现 低 分 辨 
率 人 脸 图 像 的 超 分 辩 率 重建 和 人 脸 特 征 的 提取 。 算 法 首先 通过 增加 超 分 辩 率 重建 子 网 络 激活 函数 前 的 特征 图 数量 实 
现 广泛 激活 ， 保 证 信息 流 的 有 效 传递 ， 重 建 出 包含 更 多 细节 信息 的 高 分 辨认 人 脸 图 像 ; 然后 在 训练 时 结合 图 像 内 容 
损失 和 身份 损失 , 在 重建 图 像 的 同时 保留 更 多 身份 信息 , 使 得 提取 到 的 人 脸 特 征 具 有 更 强 的 辨别 性 。 实 验 结 果 表 明 ， 
算法 提升 了 低 分 辨认 人 脸 识别 的 准确 率 ， 在 监控 人 脸 数 据 集 QMUL-SurFace 上 的 性 能 优 于 传统 算法 。 
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Research on low resolution face recognition algorithm for security surveillance scene 


Lu Fengl Zhou Lin?i, Cai Xiaohui? 
(1. Chinese People's Liberation Army 78090, Chengdu 610054, China; 2. State Key Laboratory of Intererated Services 
Networks, Xidian University, Xi’an 710071, China) 


Abstract: Aiming at the problem of low face recognition accuracy caused by poor image quality and loss of detailed 
information of face pictures obtained in security surveillance scene, this paper proposed a low-resolution face recognition 
algorithm based on super-resolution reconstruction. The algorithm included two sub-networks: super-resolution reconstruction 
and face recognition, which could respectively realize super-resolution reconstruction of low-resolution face image and 
extraction of face features. Firstly, the algorithm increased the number of feature maps before the activation function of super- 
resolution reconstruction sub-network to achieve wide activation and ensure effective transfer of information flow, so as to 
reconstruct high-resolution images containing more effective detailed information. Then, the algorithm combined image 
content loss and identity loss during training to retain more identity information while reconstructing image, which could 
make extracted face features more discriminative. Experimental results show that the algorithm improves accuracy of low- 
resolution face recognition and has better performance than traditional algorithms on surveillance face dataset QMUL-SurFace. 
Key words: security surveillance; Super-Resolution reconstruction; wide activation; identity loss 

0 引言 图 像 进行 重建 从 而 完成 识别 是 目前 主流 的 解决 方法 。 
人 脸 图 像 的 超 分 辨 率 算 法 , 被 称 为 “人 脸 幻 想 ”， 最 早 由 
随 着 社会 的 高 速 发 展 ， 安 防 技术 成 为 建设 智慧 城市 中 不 BakerBJ 提 出 , 他 采用 贝 叶 斯 公式 从 高 斯 和 拉 普 拉 斯 金字 塔 中 
可 或 缺 的 一 部 分 。 人 脸 识 别 技术 作为 一 种 最 县 代表 性 的 生物 赴 计 出 空间 梯度 分 布 作 为 正 脸 的 先 验 信 息 来 获得 高 分 辨 率 人 
特征 识别 技术 ， 由 于 其 部 署 简单 且 高 效 ， 被 广泛 应 用 于 安防 答 图 像 。Wang 岂 等 人 通过 对 训练 集 的 人 脸 图 像 进 行 加 权 ， 利 

领域 ， 现 有 的 人 脸 识 别 算法 在 被 识别 人 员 主 动 配合 的 场景 用 主 成 分 分 析 (PCA) 对 输入 的 低 分 辩 率 图 像 进行 重建 。 
达到 了 很 高 的 精度 。 不 同 于 有 约束 条 件 下 的 人 脸 识别 技术 ， Tappen 和 Liu 利用 SIFT 流 来 扭曲 训练 集 的 高 分 辨 率 人 脸 图 
面向 安防 监控 场景 的 人 脸 识别 更 加 关注 真实 无 约束 场景 下 的 像 ， 然 后 使 用 贝 叶 斯 框架 来 重 构 高 分 辨 率 人 脸 图 像 。Song[9g 
识别 效果 叫 ， 而 监控 视频 捕获 到 的 人 上 脸 图 像 大 多 是 低 分 辨 率 ” 等 人 提出 的 方法 通过 CNN 生成 部 分 人 脸 ， 并 通过 部 分 增强 
的 ， 直 接 利用 现 有 的 人 脸 识 别 算法 会 出 现 准 确 率 大 幅度 降低 。 式 合 成 细 粒 度 的 面部 结构 。FSRNet" 提 出 人 脸 超 分 辨 率 生成 
的 现象 导致 无 法 应 用 。 因 此 ， 如 何 对 监控 视频 中 的 低 分 辩 率 对抗 网 络 使 生成 的 人 脸 图 像 更 逼真 ， 并 引入 对 抗 损失 进行 端 
人 脸 进行 快速 而 准确 的 身份 认证 是 当前 人 脸 识别 领域 面临 的 ”到 端的 训练 。 该 算法 先 构建 一 个 粗糙 的 超 分 辩 率 网 络 以 恢复 
难题 。 出 粗糙 的 高 分 辩 率 图 像 ， 然 后 提取 图 像 特征 并 计算 人 脸 关键 
寺 对 低 分 辨 率 人 脸 识别 问题 ， 主 要 有 四 种 解决 方法 : 对 ”点 热 图 和 解析 图 作为 人 脸 先 验 信息 ， 最 后 图 像 特征 和 先 验 信 
高 分 辨 率 人 脸 图 像 进行 下 采样 、 将 待 识别 的 低 分 。 息 经 过 精细 的 超 分 辩 率 解码 器 恢复 出 高 分 辨 率 图 像 。 
辨 率 人 脸 图 像 和 图 库 中 的 高 分 辨 率 人 脸 图 像 同时 映射 到 统一 基于 超 分 辨 率 重建 的 低 分 辨 率 人 脸 识 别 算法 主要 分 为 直 
的 特征 空间 再 进行 识别 中、 提取 不 受 高 低 分 辩 率 影响 的 鲁 棒 ” ” 接 和 间接 两 种 方法 ， 直 接 的 方法 是 将 超 分 辨 紊 重建 网 络 与 识 
特征 、 对 低 分 辨 率 人 脸 图 像 进行 超 分 辨 率 重 建 。 其 中 ， 下 采 ” 别 网 络 衔接 在 一 起 进行 联合 训练 ， 训 练 时 使 超 分 辨 率 重建 网 
样 方法 会 造成 有 用 信息 的 丢失 ， 统 一 特征 空间 的 方法 容易 带 络 朝 着 有 利于 人 脸 识 别 的 方向 进行 参数 更 新 中 。 间 接 的 方法 
来 噪声 ， 提 取 分 辨 率 鲁 棒 特 征 的 方法 在 分 辩 率 相差 较 大 的 情 。 是 将 超 分 辨 率 重 建 网 络 和 人 脸 识 别 网 络 分 开 训练 。 间 接 的 方 
况 下 效果 并 不 理想 ， 因 此 采用 超 分 辩 率 算法 对 低 分 辨 率 人 脸 ”法 简单 有 效 ， 可 以 重建 出 效果 通 真 的 人 脸 ， 但 重建 后 的 人 脸 
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不 一 定 有 利于 识别 ， 可 能 会 引入 其 他 的 噪声 。 
为 了 解决 上 述 问题 ， 本 文采 用 直接 的 方法 ， 提 出 一 种 基 
于 身份 保持 和 超 分 辩 率 重建 的 低 分 辨 率 人 脸 识 别 网 络 结构 ， 
在 网 络 训 练 时 引入 身份 损失 ， 使 超 分 辩 率 重建 网 络 朝 着 保持 
身份 的 方向 更 新 。 实 验 结果 表明 ， 本 文 提出 的 方法 对 于 低 分 
状 率 的 人 脸 识 别 准确 率 有 很 大 提升 。 
1 ， 算法 框架 

安防 监控 场景 下 的 低 分 辨 率 人 脸 识 别 系统 流程 如 图 1 所 
示 。 在 图 1 中 ， 低 分 辩 率 图 像 的 人 脸 检 测 采 用 CenterFacet9] 
算法 ， 虚 线 框 中 的 内 容 是 整个 系统 的 关键 ， 也 是 本 文 算 法 的 
主要 研究 内 容 。 
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图 1 安防 监控 场景 下 的 低 分 辨 率 人 脸 识 别 系 统 流程 


Fig.1 Flow chart of low-resolution face recognition System in 


security surveillance scene 
本 文 算法 主要 包括 两 个 子 网 络 ， 超 分 辨 率 重 建 网 络 
(SRNet) 和 人 脸 识 别 网 络 (FRNet)，SRNet 从 低 分 辩 率 人 脸 图 
片 中 重建 出 高 分 辩 率 人 脸 图 片 ，FRNet 从 重建 后 的 人 脸 图 片 
中 提取 出 人 脸 特 征 。 
1.1 广泛 激活 的 SRNet 
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习 得 到 ， 提 高 了 效率 ， 避 免 引 入 过 多 的 人 工 因 素 。 
[ 卷 积 《De 人 未 各 上 元 余 卷 积 


国门 mr | 有 + -全 


文献 [9] 网 络 结构 


| 残 差 块 | 人 
外 + 总 
本 文 SRNet 网 络 结构 V 
图 2 SRNet 网 络 结构 
Fig.2 Network structure of srnet 
于 批量 归 一 化 操作 (batch normalization，BN) 对 特征 进 
行 了 归 一 化 ， 限 制 了 网 络 的 灵活 性 ， 因 此 本 文 的 SRNet 在 采 
用 残 差 网 络 进行 图 像 超 分 状 率 重建 任务 时 ， 移 除 网 络 中 的 
BN 层 , 采用 权重 归 一 化 (weight normalization, WN) 操 作 来 节 
约 计算 量 。 
假设 输出 为 


y=wx+b (1) 
其 中 : w 为 维 的 权重 向 量 ，5b 是 偏 置 (标量 )，* 是 上 维 的 输 
入 特征 向 量 。 权 重 归 一 化 通过 对 权重 向 量 的 长 度 和 方向 进行 
解 耦 对 权重 进行 重新 参数 化 ， 将 权重 规范 在 一 定 范 围 内 ， 而 
文献 [11] 表 明 , 长度 和 方向 解 耦 可 以 加 快 神经 网 络 的 收敛 , 因 
此 权重 归 一 化 使 得 训练 可 以 采用 较 大 的 学 习 率 ， 其 过 程 如 公 
式 (2) 所 示 。 


Sr 
中 


SN 
ll 
hu hil 


ee 
bb » (2) 
其 中 : "为 上 维 的 权重 向 量 ，8 是 一 个 标量 ， 电 是 ”的 欧 几 里 


1.2 基于 深度 可 分 离 卷 积 的 FRNet 
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基于 深度 卷 积 神经 网 络 的 图 像 超 分 辨 率 重建 算法 的 思路 
是 通过 卷 积 和 激活 函数 在 低 分 辨 率 图 像 和 高 分 辨 率 图 像 之 间 
找到 一 个 最 佳 的 映射 函数 ， 通 过 该 映射 函数 来 重建 图 像 。 对 
于 单 张 图 像 超 分 辩 率 重建 任务 ， 需 要 尽 可 能 地 从 输入 的 低 分 
状 紊 图像 和 卷 积 得 到 的 特征 图 中 学 习 到 更 多 的 信息 ， 并 且 使 
学 习 到 的 信息 在 前 向 传播 的 时 候 尽 可 能 地 传递 到 网 络 后 端 ， 

即 保证 信息 流 的 传递 。 
在 超 分 辨 率 网 络 中 ，ReLU 激活 函数 会 阻止 信息 流 的 传 
递 ， 为 了 降低 激活 函数 对 信息 流传 递 的 影响 ， 本 文 将 广泛 激 
活 的 思想 应 用 于 超 分 辨 率 算法 。 最 直接 的 广泛 激活 方法 即 增 
加 所 有 特征 图 的 通道 数 ， 这 种 方法 会 提升 网 络 的 性 能 ， 但 同 


输入 的 低 分 状 率 人 脸 图 像 经 过 超 分 辩 率 重建 得 到 高 分 辩 
率 人 脸 图 像 后 ， 需 要 经 过 人 脸 识别 网 络 提 取出 人 脸 特 征 ， 

进行 特征 比 对 从 而 进行 人 脸 身 份 的 验证 。 本 文 的 FRNet 采用 
文献 [12] 提 出 的 轻 量 级 人 脸 识别 网 络 MobileFaceNet， 以 实现 
快速 而 准确 的 人 脸 识别 。 
前 常见 的 视觉 识别 网 络 都 会 采用 全 局 平均 池 化 层 
(global average polling，GAP)，GAP 给 特征 图 上 的 每 个 神经 
元 赋予 同等 权重 ， 但 特征 图 的 中 心 区 域 和 边缘 区 域 对 应 的 感 
受 野 不 同 , 中 心 区 域 的 感受 野 对 输出 的 影响 更 大 , 而 GAP 将 
特征 图 上 的 每 个 单元 视 为 同等 重要 ， 这 样 做 会 降低 网 络 的 性 
能 。 为 了 改善 这 一 点 ，MobileFaceNet 采用 全 局 逐 深度 卷 积 
(global depthwise convolution，GDConv) 来 代替 GAP， 使 特征 
图 中 不 同 的 单元 有 不 同 的 权重 。 


时 也 增加 了 大 量 的 参数 。 本 文 在 文献 [10] 的 网 络 结构 基础 上 ， 
采用 广泛 激活 的 方式 构建 超 分 辨 率 重 建 网 络 ， 增 加 激活 函数 
之 前 的 特征 图 数量 ， 使 特征 图 中 包含 的 信息 尽 可 能 多 地 向 网 
络 后 端 传递 ， 为 了 避免 引入 大 量 参数 ， 在 增加 激活 函数 之 前 
的 特征 图 数量 的 同时 降低 基础 特征 图 的 数量 ， 在 实现 广泛 激 


活 的 同时 控制 参数 量 的 增长 。 
本 文 的 SRNet 网 络 结构 如 图 2 所 示 。 输 入 的 低 分 辩 率 图 
像 首 先 经 过 网 络 的 两 个 分 支 ， 将 得 到 的 结果 进行 相同 的 上 采 
样 操 作 ， 再 对 上 采样 得 到 的 结果 直接 相 加 得 到 重建 的 高 分 辩 
率 图 像 。 其 中 , 为 了 减少 网 络 的 参数 量 , 去 除了 文献 [10] 的 网 
络 结构 中 一 些 匈 余 的 卷 积 层 。 

一 般 的 上 采样 方法 有 双 线 性 插值 、 反 卷 积 等 等 ， 在 超 分 
辨 率 重建 中 ， 如 果 采 用 反 卷 积 进 行 上 采样 ， 会 引入 过 多 的 人 
寻 素 ， 因 此 本 文采 用 亚 像素 卷 积 对 特征 图 进行 上 采样 。 用 
于 上 采样 的 插值 函数 被 隐 含 地 包括 在 卷 积 层 中 ， 可 以 自动 学 
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GDConv 采用 深度 可 分 离 卷 积 实现 ， 即 将 普通 的 卷 积 运 
算 分 解 为 两 步 进 行 : 逐 深 度 卷 积 (depthwise convolution) 和 逐 
像素 卷 积 pointwise convolution)。 普 通 卷 积 过 程 如 图 3 所 示 。 
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到 3 ”普通 卷 积 运 算 过 程 
Fig.3 Operation process of ordinary convolution 


假设 输入 为 一 个 大 小 为 64*64 像素 、 三 通道 的 彩色 
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经 过 一 个 包含 4 个 filter 的 卷 积 层 ， 每 个 filter 包含 3 个 大 小 
为 3*3 的 kernel， 最 终 输 出 与 输入 尺寸 相同 的 4 个 特征 图 ， 


则 ee 4*3*#3*#3=108。 相 同 条 件 下 采用 深 


度 可 分 离 卷 积 的 运算 过 程 如 图 4 所 示 。 
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Depthwise Convolution 
maps*4 


maps*3 filters*4 


下 


| 


司 党 


Pointwise Convolution 
图 4 深度 可 分 离 卷 积 的 运算 过 程 

Fig.4 Operation process of deep separable convolution 

输入 图 片 首 先 在 二 维 平面 内 经 过 第 一 次 卷 积 运算 。 得 到 

3 个 特征 图 ， 此 时 特征 图 的 数量 与 输入 层 的 深度 相同 ， 然 后 


身份 信息 ， 本 文 算法 采取 重建 
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1 ， 
Lay = 2 lz — | 


身份 损失 的 作 


图 像 


有 只 .中 ， 


特 和 


其 中 ,15* 为 SR Face, IY* 为 MR Face, 7 为 训练 样本 的 数量 。 
是 在 进行 人 脸 超 分 状 率 重建 的 同时 保持 


第 38 卷 第 3 期 


G3) 


后 的 人 脸 


= 


征 之 间 的 余弦 距离 作为 身份 损失 ， 如 式 (4) 所 示 。 


ff 分 别 代 表 ISR Face 与 HR Face 的 特征 向 量 ， 


g(*) 为 特征 之 间 的 余弦 距离 ， 计 算 公 式 为 


的 预 


模型 ， 


MTCNN 


本 文 ] 


8 (FE f*)=l 


是 出 的 基于 联合 
训练 模型 参数 ， 
采用 CASIA-WebFace 
SRNet 从 头 开 
在 训练 前 首先 对 数据 集 进 行 以 下 
[5 算法 对 训练 集 进行 人 脸 检测 和 对 齐 ， 


13] 


台 训练 , 训 


fee fn 

ea aa 
员 失 的 网 络 在 训练 时 ， 固 定 FRNet 
只 更 新 SRNet 的 参数 。FRNet 部 分 基 
数据 集训 练 得 到 的 MobileFaceNet 
练 集 采用 CelebA04 数据 集 ， 
预 处 理 操 作 : 采用 


图 像 和 高 分 辨 率 人 脸 


基于 


将 图 片 大 


小 调整 至 112*96 作为 高 分 辨 率 图 像 , 然后 对 高 分 辨 率 进行 4 


再 对 这 3 个 特征 图 进行 第 二 次 卷 积 运算 ， 即 在 深度 方向 上 进 


倍 、8 


倍 和 16 售 


的 随机 下 采样 ,分 别 得 到 大 小 为 28*24、 


14*12 


行 加 权 组 合 ， 得 到 最 终结 果 。 深 度 可 分 离 卷 积 的 参数 量 为 和 7*6 的 人 脸 图 像 作为 输入 的 低 分 辨 率 人 脸 图 像 。 在 网 络 训 
3*#3*#3+1*#1*#3*#4=-39， 约 为 普通 卷 积 运算 参数 数量 的 1/3。 因 练 过 程 中 ，SRNet 被 图 像 内 容 损失 和 身份 损失 联合 监督 ， 以 
此 ， 采 用 深度 可 分 离 卷 积 可 以 大 大 减少 网 络 的 参数 量 ， 提 高 同时 实现 人 脸 超 分 辨 率 重 建 和 身份 保持 。 联 合 损失 为 
网 络 提取 特征 的 速度 L=Lawe + GL (6) 
1.3 联合 多 种 损失 的 低 分 辨 素 人 脸 识 \ 别 算法 其 中 : 4 是 身份 损失 的 权重 因子 。 
目前 基于 深度 学 习 的 单 图 像 超 分 辩 率 重建 算法 大 多 以 主 要 
现 视 这 效 时 为 导向 ， 以 峰值 信 吧 比 (PSNR 和 结构 相似 2 。 实验 结果 与 分 析 
(SSIMD) 为 评价 指标 。 这 些 超 分 辨 率 重 建 算法 在 被 应 用 于 低 分 ”2.1 实验 环境 介绍 
辨 率 人 脸 识别 任务 时 ， 难 pd 出 现在 进行 超 分 辩 率 重建 时 为 本 文 模型 训练 与 网 络 结构 实现 均 采 用 Pytorch 框架 。 
了 尽 可 能 多 地 保留 图 像 细 节 信 息 从 而 丢失 部 分 身份 信息 而 导 Pytorch 是 一 个 开源 的 基于 Python 的 可 续 计 算 包 ， 和 常用 于 机 
致 人 脸 识 别 性 能 受 限 的 情况 。 器 学 习 领 域 , 它 具 有 强大 的 GPU 加 速 的 张 量 计算 (如 NumPy)， 
本 文 为 了 改善 上 述 情 况 ， 在 超 分 辩 率 重建 的 过 程 中 保 并 且 包 含 自动 求 导 系统 。Pytorch 框架 由 于 其 简洁 高 效 、 封 装 
更 多 的 身份 信息 ， 提 出 一 种 联合 多 种 损失 的 低 分 辨 率 人 脸 识 较 少 、 入 门 简单 的 优势 ， 目 前 得 到 了 广泛 的 应 用 。 具 体 的 软 
别 算法 。 整 体 网 络 结构 如 图 5 所 示 。 硬件 配置 情况 如 下 : 处 理 器 为 Intel(R) Core(TMD i7-6700 CPU 
在 图 5 中 ， 输 入 的 低 分 辩 率 人 脸 图 像 (LR Face) 经 过  @3.4GHz 8 核 8G 内 存 ;操作 系统 为 64 位 的 Ubuntu16.04; 
SRNet 得 到 SR Face， 高 分 辨 率 人 脸 图 像 (HR Face) 下 采样 至 ”显卡 为 NVIDIA TITAN X， 显 存 12G; 开发 环境 和 工具 为 
SR Face 的 大 小 得 到 MR Face，SR Face 和 MR Face 形成 图 像 Anaconda 软件 ，python3.5 环境 及 相关 科学 计算 库 。 
内 容 损 失 Le ， 用 于 监督 SRNet 重建 出 效果 更 逼真 的 高 分 辩 2.2 超 分 辨 率 重 建 结果 与 分 析 
率 人 脸 图 像 。SR Face 上 采样 至 HR Face 大 小 得 到 ISR Face， 为 了 说 明 本 文 算法 的 SRNet 对 于 低 分 辨 率 人 脸 图 像 进行 
ISR Face 与 HR Face 经 过 FR Net 分 别提 取得 到 人 脸 特 征 ,两 超 分 辩 率 重建 的 效果 ,选择 LFW 109 数据 集中 的 部 分 人 脸 进 
个 人 脸 特征 之 间 的 距离 形成 身份 损失 ,用 于 监督 SRNet 保 行 测试 ， 对 选中 的 人 脸 图 像 进行 下 采样 处 理 作为 输入 的 低 分 
留 更 多 的 身份 信息 。 辩 率 图 像 。 一 般 来 说 ， 超 分 辩 率 重建 算法 的 性 能 主要 通过 图 
像 像素 来 反映 ， 而 人 脸 图 像 的 重建 还 需 考虑 对 能 鉴别 身份 的 
一 图 像 细 节 信 息 的 保留 ， 因 此 本 文 主要 从 主观 视觉 效果 体现 
ee SRNet 对 于 低 分 辨 率 人 脸 图 像 的 重建 性 能 
Lime 本 文选 择 双 三 次 插值 、 文 献 [10] 中 的 超 分 辨 率 算 法 以 及 
人 人 文献 [17] 中 的 超 分 辩 率 算法 从 主观 视觉 效果 的 角度 进行 比较 ， 
这 三 种 方法 分 别 被 命名 为 Bicubic、EDSR、ESRGAN, 其中， 
0 re Bicubic 是 传统 超 分 辩 率 方法 中 应 用 较为 广泛 的 方法 ，EDSR 
SE 算法 和 ESRGAN 是 近年 来 重建 性 能 较为 优异 的 基于 深度 学 
FRNet 习 的 超 分 状 率 算法 ， 两 者 分 别 利用 深度 卷 积 神经 网 络 和 生成 
= 对 抗 网 络 实现 超 分 辩 率 重建 。 实 验 过 程 中 将 放大 因子 设置 为 
ISR feature HR feature 4， 对 比 结果 如 图 6 所 示 ，HR 为 原始 高 分 辨 率 图 像 。 
从 图 6 的 结果 图 可 以 看 出 ， 传 统 方法 Bicubic 重建 得 到 
图 5 ”网络 整体 结构 的 人 脸 图 像 仅 仅 保留 了 人 脸 的 大 致 轮廓, 面部 信息 非常 模糊 ; 
Fig.5 Overall structure of network 基于 深度 卷 积 神经 网 络 的 EDSR 算法 重建 得 到 的 人 脸 图 像 的 
与 文献 [10] 相 同 ， 本 文 的 图 像 内 容 损失 采用 损失 : 五 官位 置 比较 明确 ， 但 五 官 部 分 却 存在 伪 影 ， 出 现 难以 辨别 
个 别人 脸 图 像 对 应 身份 的 现象 ; 基于 生成 对 抗 网 络 的 
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ESRGAN 算法 重建 得 到 的 人 脸 图 像 
巴 附 近 的 


个 别 图 


像 路 


五 官 


局 部 上 的 纹理 


眉毛 等 五 官 上 的 细节 信息 保留 更 完整 ， 垦 
bb 更 加 丰富 ， 具 有 


户 峰 ， 


图 像 细 


局 部 较为 清晰 , 但 仍 存在 
节 较 为 模糊 的 现象 。 本 文 的 
SRNet 重 构 得 到 的 人 脸 图 像 整体 边缘 轮廓 更 加 清晰 ， 眼 睛 


等 : 


h 上 月、 


低 分 辨 率 人 脸 识 另 


Bicubic 


6 


上 有 更 好 的 促进 作用 


EDSR ESRGAN 


结果 对 上 


四 倍 超 分 辨 率 习 


和 于 


E 能 表示 身份 信息 所 
更 高 的 身份 辨识 度 ， 对 


Ours 


上 


Fig.6 Comparison of four times super-resolution reconstruction results 


2.3 低 分 辨 率 人 脸 识 别 结果 与 分 析 
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联合 损失 函数 训练 得 到 的 网 络 比 采用 身份 损失 函数 训练 得 到 


的 网 络 的 准确 率 有 进一步 的 提升 ， 


且 输 入 图 像 分 辩 率 越 低 ， 


提升 越 明显 ， 说 明 在 图 像 内 容 损失 和 身份 损失 加 权 得 到 的 联 


合 损失 函数 的 


人 本 
监督 


下 ，SRNet 在 对 低 分 辨 率 人 脸 图 像 重 建 的 


过 程 中 不 仅 保留 了 图 像 细 节 信 息 ， 还 保留 了 与 人 脸 身份 相关 
的 有 效 信 息 , 因而 FRNet 可 以 从 SRNet 重建 后 的 图 像 当 中 提 


取出 辨识 度 更 高 的 人 脸 特 和 


得 以 提升 。 


E， 低 分 辨 率 人 脸 识别 的 性 能 因此 


为 了 验证 本 文 的 低 分 辨 率 人 脸 识别 算法 在 安防 监控 场景 


下 的 实用 性 ， 本 文选 择 监 控 人 脸 数据 集 
为 测试 集 ，QMUL-SurFace 是 一 个 从 监控 摄像 头 
党 具 有 挑战 性 的 低 分 辨 率 人 脸 数据 集 。 表 2 列 出 了 本 文 算法 


是 


QMUL-SurFace091 作 
有 获 的 、 非 


与 一 些 超 分 辩 率 算法 VDSRP0、SRResNet20、FSRNetI7、 
FSRGANI" 在 QMUL-SurFaceII9 数 据 集 上 的 人 脸 验证 结果 ， 


从 而 评估 本 文 算法 在 实际 安防 监控 数据 的 性 能 。 
表 2 QMUL-SurFace 数据 集 人 脸 验 证 结果 
Tab. 2 Face verification results of QMUL-surface dataset 


TAR(%)@FAR 
Approach AUC Mean Acc/% 
30% 10% 1% 0.1% 

VDSR 61.03 35.32 8.89 3.10 71.02 65.64 
SRResNet 61.81 34.03 8.36 2.07 71.00 65.94 
FSRNet 59.92 33.10 7.84 1.93 70.09 64.96 
FSRGAN 56.03 30.91 8.45 2.66 67.93 63.06 

本 文 (0) 61.15 35.53 12.63 5.11 71.25 65.43 
本 文 (0.5) ”61.28 35.83 11.49 3.38 71.37 65.84 
根据 QMUL-SurFace09] 的 协议 ， 本 文采 用 TAR@FAR、 


为 了 验证 本 文 算法 对 于 低 分 辩 人 脸 识 别 任务 的 有 效 性 ， AUC 和 Mean Acc 三 个 指标 共同 衡量 算法 的 优 劣 。 其 中 , TAR 
本 文 对 LFW09 数 据 集 进 行 4 倍 、8 信和 16 倍 下 采样 ， 分 别 和 FAR 分 别 表示 正确 接受 率 和 错误 接受 率 , 在 人 脸 验 证 过 程 
得 到 28*24、14*12 和 7*6 大 小 的 低 分 辨 率 人 脸 图 像 ，112*96 中， 测试 样本 为 两 张 人 脸 图 像 ， 同 一 人 的 两 张 图 像 称 为 正 样 
的 原始 图 像 作为 高 分 辨 率 人 脸 库 图 像 。 广 义 的 人 脸 识别 分 为 本 ， 不 同人 的 两 张 图 像 称 为 负 样 本 ，TAR 为 正 样 本 被 正确 识 
1:1 和 1:N 两 种 ,分 别 对 应 人 脸 验 证 和 人 脸 识 别 两 种 技术 , 人 别 的 比例 ， 即 同一 人 的 两 张 不 同 图 像 被 判定 为 属于 同一 人 ， 
脸 验 证 是 比较 当前 测试 图 片 与 数据 库 中 图 像 中 的 人 脸 是 否 为 FAR 为 负 样 本 被 错 认 为 正 样本 的 比例 ， 即 不 同人 的 两 张 图 像 
同一 人 ， 人 脸 识别 是 在 包含 大 量 人 脸 图 像 的 数据 库 中 找 出 和 ”被 判定 为 属于 同一 人 。TAR 越 大 越 好 ，FAR 越 小 越 好 ， 当 判 
当前 测试 图 片 身份 相同 的 人 脸 。 本 论文 根据 LFEW09 数 据 集 的 ” 定 为 同一 人 的 标准 降低 时 , TAR 会 增 大 , 但 FAR 也 会 增 大 ， 
无 限制 协议 , 选取 数据 集中 的 6000 对 人 脸 , 测试 人 脸 验 证 的 羽 此 仅仅 使 用 TAR 或 FAR 不 能 作为 人 脸 识别 算法 的 指标 ， 
准确 率 ， 并 进行 10 折 交 叉 验 证 获得 人 脸 验 证 的 平均 准确 率 ， 当 固定 FAR 值 考虑 TAR 的 值 才 是 有 意义 的 ， 因 此 常 采 用 
以 平均 准确 率 作为 算法 的 评价 指标 。 本 文 将 与 双 三 次 插值 算 。 ”TARQ@FAR 作为 评价 指标 ,TAR@FAR=0.001 表示 FAR=0.001 
法 和 文献 [18] 中 提出 的 人 脸 幻 想 算法 TDAE 进行 比较 , 在 。 时 TAR 的 值 ， 在 相同 错误 接受 比例 下 的 TAR 越 大 ， 说 明 该 
LFW09 数 据 集 上 人 脸 验证 准确 率 结 果 如 表 1 所 示 。 人 脸 识 别 算法 的 鲁 棒 性 越 强 。AUC 是 受 试 者 工作 特征 曲线 
表 1 LFW 数据 集 人 脸 验 证 准确 率 (ROC) 下 的 面积 ， 常 用 于 衡量 分 类 器 的 性 能 ，AUC 越 大 ， 说 
Tab. 1 Face verification accuracy of LFW dataset 明 人 脸 识 别 算法 的 性 能 越 好 。Mean Acc 表示 人 脸 验 证 的 平均 
Approachs 7*6 14*12 16*16 28*24 112*96 准确 率 。 
Bicubic 59.53 82.82 89.21 97.68 99.03 表 2 中 数据 可 以 看 出 ,本文 的 算法 Ours(0) 和 Ours(0.5) 
TDAE 71.38 在 正确 接受 率 TAR、ROC 曲线 下 面积 AUC 和 人 脸 验 证 平均 
ESRGAN - 89.63 - 准确 率 (Mean Acc) 指 标 上 基本 优 于 前 文 所 提 到 的 几 种 算法 。 
本 文 (0) 73.13 92.18 94.50 98.55 采用 联合 损失 函数 ( 即 身份 损失 权重 为 0.5) 训 练 的 模型 比 仅 
本 文 (0.5) 84.57 94.62 95.31 98.73 仅 使 用 图 像 内 容 损失 函数 ( 即 身 份 损失 权重 为 0) 训 练 得 到 的 
在 表 1 中 ， 由 于 TDAE 算法 与 ESRGAN 算法 要 求 输入 模型 的 Mean Acc 和 AUC 更 高 ， 说 明 在 图 像 内 容 损失 的 基础 


Ours(0) 和 Ours(0.5) 表 示 本 文 的 算法 , Ours(0) 代 表 仅仅 


像 内 容 损失 函数 训练 得 到 的 网 络 ，Ours(0.5) 表 示 采 | 


失 函 数 训练 得 到 的 网 络 ， 括 号 中 的 数值 表示 


身份 


员 失 函数 的 权重 。 表 
辩 率 人 脸 识 别 算法 在 输入 图 


像 分 辨 率 较 低 的 ! 


图 片 为 16*16 大 小 ， 为 了 公平 比较 ， 本 文 将 测试 集中 图 片 下 
采样 至 16*16 大 小 作为 输入 的 低 分 辩 率 


1 中 的 数据 表明 ， 本 文 提出 的 低 分 


传统 图 像 超 分 辩 率 方法 Bicubic 与 基于 深度 学 习 的 人 脸 幻 想 


算法 TDAE 和 ESRGAN, 准 
算法 对 于 低 分 辨 率 人 脸 识别 具有 更 优异 的 性 能 。 其 中 ， 采 用 


确 率 得 到 了 很 大 


别 ， 最 终 分 别 得 到 两 组 图 


上 引入 身份 损失 可 以 在 对 监控 中 的 低 分 辩 率 进行 人 脸 超 分 辩 
图 像 。 在 表 1 中 ， 率 重 建 时 保留 更 多 的 身份 信息 ， 再 一 次 证 明了 本 文 算法 以 联 
使 用 图 ” 合 损 失 训 练 网 络 的 方法 对 于 视频 监控 中 的 低 分 辨 率 人 脸 识别 

联合 损 ”性 能 的 提升 作用 。 
居 合 损失 函数 中 为 了 说 明 本 文 算法 在 实际 监控 场景 下 的 作用 ， 本 文选 取 
UCCSE5 数据 集中 的 样 例 图 片 ， 按 图 1 所 示 流 程 进行 低 分 辨 
青 况 下， 相 较 于 ” 率 人 脸 识 别 ， 结 果 如 图 7 所 示 。 分 别 选取 同一 身份 的 人 的 两 
张 不 同 图 片 和 不 同 身份 的 两 人 对 应 的 人 脸 图 片 ， 进 行人 脸 检 
提升 , 说 明 本 文 ” 测 后 得 到 低 分 辩 率 人 脸 ， 再 进行 4 倍 超 分 辨 率 重 建 和 人 脸 识 


片 对 应 人 脸 的 余弦 相似 


二 


。 身 份 相 
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同 的 两 张 图 片 的 相似 度 较 高 ， 为 0.7134， 身 份 不 同 的 两 张 图 


峰 ， 等 : 


片 的 相似 度 较 低 ， 为 0.2698， 该 结果 进一步 说 明了 本 文 算 法 
在 实际 监控 场景 下 的 实用 性 。 
身份 相同 身份 不 同 
检测 到 的 
: 图 国 图 
SR 人 脸 
余弦 相似 度 0.7134 0.2698 


图 7 实际 监控 场景 下 的 低 分 辨 率 人 脸 识别 效果 
Fig.7 Low-resolution face recognition renderings in 
actual surveillance scene 

2.4 算法 复杂 度 分 析 

本 文 从 人 脸 图 像 的 超 分 辩 率 重建 效果 和 低 分 辨 率 人 脸 识 
别 准确 率 两 方面 衡量 了 算法 的 性 能 ， 而 算法 的 复杂 度 也 是 反 
了 映 算 法 优 劣 程度 的 指标 ， 本 文 从 时 间 复 杂 度 和 空间 复杂 度 两 
个 方面 来 分 析 算 法 的 复杂 度 。 
对 于 深度 学 习 算法 ， 时 间 复 杂 度 直接 决定 了 模型 的 测试 
时 间 ， 在 人 脸 识 别 实际 应 用 中 则 影响 人 脸 验 证 的 效率 。 本 文 
的 低 分 辩 率 人 脸 识 别 算法 在 2.1 节 介 绍 的 实验 环境 中 ， 对 于 
28*24 大 小 的 一 对 人 脸 图 像 的 测试 时 间 为 12.5ms， 该 时 间 包 
括 两 张 人 脸 图 像 的 超 分 辩 率 重建 、 人 脸 特 征 提 取 及 特征 比 对 


ES 


深度 学 习 算 法 通过 模型 的 参数 数量 来 体现 空间 复杂 度 ， 
参数 量 是 模型 所 有 带 参 数 的 层 的 权重 参数 总 量 ， 可 以 通过 模 
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GN 


型 所 占 存储 空间 大 小 来 体现 。 本 文 算法 包括 SRNet 和 FRNet 
两 个 模型 ， 所 占 空间 大 小 分 别 为 198.8M 和 4.1M。 

以 上 数据 表明 ， 本 文 算法 以 较 短 的 时 间 和 较 小 的 存储 空 
间 实 现 了 低 分 辩 率 人 脸 验 证 ， 具 有 运算 速度 快 、 模 型 体积 小 的 
优点 ， 有 利于 向 低 分 辨 率 人 脸 识别 的 实际 应 用 场景 进行 推广 。 


3 ”结束 语 


本 文 面向 安防 监控 场景 ， 提 出 了 一 种 包含 两 个 子 网 络 的 
低 分 辨 率 人 脸 识 别 算法 ， 该 算法 同时 考虑 了 超 分 辨 率 重 建 任 
务 中 的 图 像 内 容 损 失 和 人 脸 识 别 任务 的 身份 损失 ， 以 实现 对 
低 分 辨 率 人 脸 图 像 进行 超 分 辩 率 重建 时 同时 保留 图 像 细 节 和 
身份 信息 。 在 进行 超 分 辨 率 重 建 的 过 程 中 ， 将 广泛 激活 的 思 
想 用 于 超 分 辨 率 重 建 网 络 , 增加 激活 函数 之 前 的 特征 图 数量 ， 
从 特征 图 中 学 习 到 更 多 图 像 的 细节 信息 。 实 验 结果 表明 ， 该 
算法 重建 出 的 图 像 细 节 真 实 丰 富 、 边 缘 清 晰 ， 并 且 在 公开 的 
标准 数据 集 和 监控 人 脸 数据 集 的 性 能 良好 ， 相 比 于 己 有 的 超 
人 
前 都 是 对 监控 视频 中 的 单 幅 图 
进一步 工作 重心 会 将 算法 应 用 


困 : 


和 
旺 


在 监控 视频 中 ， 


eA 
脸 识 别 ， 实 现 多 帧 视频 图 像 的 融合 ， 最 后 得 到 重建 质量 更 高 
的 人 脸 图 像 ， 提 高 低 分 辨 率 人 脸 识别 的 准确 率 。 


参考 文献 : 


[1] 刘 玮 . 无 约束 条 件 下 的 人 脸 识别 方法 研究 [D]. 成 都 : 电子 科技 大 
学 , 2019. (Liu Wei. Research on face recognition under unconstrained 
condition [DI]. 
Technology of China, 2019.) 

[2] 张 饥 兵 ， 郑 冬 冬 ， 景 军 锋 . 低 分 辨 人 脸 识别 综述 [J]. 计算 机 工程 与 
应 用 , 2019, 55 (22): 14-24. (Zhang Kaibing, Zheng Dongdong, Jing 


Chengdu: University of Electronic Science and 


Junfeng. Survey of low-resolution face recognition [J]. Computer 


Engineering and Applications, 2019, 55 (22): 14-24.) 


室 场 最 的 低 分 状 率 人 脸 识 


ChinaXiv 合 作 期 刊 


别 算 法 研究 第 38 卷 第 3 期 


[3] Baker S, Kanade T. Hallucinating faces [C]// Proc of the 4th IEEE 
International Conference on Automatic Face and Gesture Recognition. 
Piscataway, NJ: IEEE Press, 2000: 83-88 

[4] Wang Xiaogang, Tang Xiaoou. Hallucinating face by eigentrans- 
formation [J]. Systems Man and Cybernetics, 2005, 35 (3): 425-434. 

[5] Tappen M F, Liu C. A Bayesian approach to alignment-based image 
hallucination [Cl]// Proc of European Conference on Computer Vision. 
Berlin: Springer, 2012: 236-249. 

[6] Song Yibing, Zhang Jiawei, He Shengfeng, et al. Learning to hallucinate 
face images via component generation and enhancement [Cl]// Proc of the 
26th International Joint Conference on Artificial Intelligence. Palo Alto, 
CA: AAAI Press. 2017: 4537-4543. 

[7] Chen Yu, Tai Ying, Liu Xiaoming, et al. FSRNet: End-to-End Learning 
Face Super-Resolution with Facial Priors [C]// Proc of the IEEE 
Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: 
IEEE Press, 2018: 2492-2501. 

[8] 刘 操 钢 . 基于 深度 学 习 的 低 分 辨认 人 脸 识 别 [D]. 哈尔滨 : 哈尔滨 
工程 大 学 , 2018. (Liu Caogang. Low-resolution face recognition based 
on deep learning [D]. Harbin: Harbin Engineering University, 2018.) 

[9] Xu Yuanyuan, Yan Wan, Sun Haixin, et al. CenterFace: Joint Face 
Detection and Alignment Using Face as Point [J]. ArXiv Preprint, arXiv: 
1911. 03599. 2019. 

[10] Lim B, Son S$, Kim H, et al. Enhanced Deep Residual Networks for 
Single Image Super-Resolution [Cl]// Proc of the IEEE Conference on 
Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: 
IEEE Press, 2017: 136-144. 

[ll] Salimans T, Kingma D P. Weight Normalization: A Simple 
Reparameterization to Accelerate Training of Deep Neural Networks 
[C]J/ In Advances in Neural Information Processing Systems. Cambridge, 
MA: MIT Press, 2016: 901-909 

[12] Chen Sheng, Liu Yang, Gao Xiang, et al. MobileFaceNets: Efficient 
CNNSs for Accurate Real-Time Face Verification on Mobile Devices [C1]// 
Proc of Chinese Conference on Biometric Recognition. Berlin: Springer, 
2018: 428-438. 

[13] Yi Dong, Lei Zhen, Liao Shengcai, et al. Learning Face Representation 
from Scratch [J]. ArXiv Preprint, arXiv: 1411. 7923, 2014. 

[14] Liu Ziwei, Luo Ping, Wang Xiaogang, et al. Deep Learning Face 
Attributes in the Wild [C]/ Proc of the IEEE international conference on 
computer vision. Piscataway, NJ: IEEE Press, 2015: 3730-3738. 

[15] Zhang Kaipeng, Zhang Zhanpeng, Li Zhifeng, et al. Joint Face Detection 
and Alignment Using Multitask Cascaded Convolutional Networks [J]. 
IEEE Signal Processing Letters, 2016, 23 (10): 1499-1503. 

[16] Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: A database 
forstudying face recognition in unconstrained environments, Technical 
Report 07-49 [R]. Amherst: University of Massachusetts, 2007. 

[17] Wang X, Yu K, Wu S, et al. ESRGAN: Enhanced Super-Resolution 
Generative Adversarial Networks [C]// Proc of the European Conference 
on Computer Vision. Berlin: Springer, 2018: 63-79. 

[18] Yu X, Porikli F. Hallucinating Very Low-Resolution Unaligned and 
Noisy Face Images by Transformative Discriminative Autoencoders [C1]// 
Proc of the IEEE Conference on Computer Vision and Pattern 
Recognition. Piscataway, NJ: IEEE Press, 2017: 5367-5375. 

[19] Cheng Z, Zhu X, Gong S, et al. Surveillance Face Recognition Challenge 
[J]. arXiv: Computer Vision and Pattern Recognition, 2018. 

[20] Kim J, Lee J K, Lee K M, et al. Accurate Image Super-Resolution Using 
Very Deep Convolutional Networks [Cl]// Proc of the IEEE Conference 
on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE 
Press, 2016: 1646-1654. 


202009.00070v1 


chinaXiv 


[21] Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single Image Super- 
Resolution Using a Generative Adversarial Network [Cl]// Proc of the 
IEEE Conference on Computer Vision and Pattern Recognition. 
Piscataway, NJ: IEEE Press, 2017: 4681-4690. 


ChinaXiv 合 作 期 刊 


录用 定稿 户 ” 烽 ， 等 : 面向 安防 监控 场景 的 低 分 辨 罕 人 脸 识别 算法 研究 第 38 卷 第 3 期 


[22] Gyunther M. , Hu, P., Herrmann C. , et al. Unconstrained face detection 
and open-set face recognition challenge [C]/ Proc of the IEEE 
International Joint Conference on Biometrics (IJCB) Piscataway, NJ: 
IEEE Press, 2017: 697-706. 


